半年後にAIはいったいどうなっているのか 2023年下半期

前半年後にAIはいったいどうなっているのか 2023年上半期

次半年後にAIはいったいどうなっているのか 2024年上半期

7月が終わってしまう前になにか書こうnomadoor.icon

ワークフローの複雑化

今の画像生成AI、全然"text2image"じゃなくね？と誰かがredditで言っていた気がする

LoRA然り、ControlNet然り

音楽、動画、LLMも結局なにか新しいUIが開発されて専門的なものになるんジャマイカ

動画生成AI

AnimateDiffではそこまで感動しなかったけれど、Midjourney ✕ Gen-2の動画を見ると案外近づいてる予感もする

日本文化AI cf. omoikane

日本語LLMは多分勝手に誰かが作る(オープンソースにしてくれるかはわからないけど…)

会話特化のPiの体験が良さそうなのを見ると、言葉を理解した先の、相対していて気持ちの良いAIとはなにかというのを考えていくフェーズになるかもしれない

コアに生成AIを取り込んだゲーム

生成AIで時短したとかではなく、生成AIが無ければ作れないゲーム

2023/12/15 Ememe

なおリリースは2024年9月25日

何を知ればより効果的な出力ができるのか(無知の知的な？)をサポートしてくれる

半年位以内は無理かもしれないけれども所謂AIコスプレとmov2mov(ロトスコープ)を利用した商業レベルの映像ワークフロー

総評 @ 2024/1/6

画像生成

高速化

一般的になってリアルタイムtext2imageやi2iが流行った

StreamDiffusionとかSD-turboとかstable-fastとかLCMとか

SDXLがベースなのが増えてきた

いまだにまともに使えるControlNetが無いnomadoor.icon

DALL·E 3

ワークフローの複雑化は割と深刻nomadoor.icon

今からだったら絶対AI触らない

まあblenderとか意味わかんないからそんなもんかも知れない

映像生成

AnimateDiffv2

生成動画の品質はあまり変わらないが、SparseCtrlやMotionCtrl等でコントロール手段が増えた

Gen-2は知らないですnomadoor.icon

ここ詳しくないので頼んだwogikaze.icon

Animate Anyoneから突然talking headの全身版のようななにかが流行りだす

日本の広告でも使われ始めた

3D生成

ぼちぼち

中国勢の台頭

Bytedanceやalibaba発の技術の公開

Animate Anyoneがまさにだけれど、TikTokなど自分のサービスで学習素材を集めて、作った技術を自分のサービスに組み込んで収益化できるのが強いnomadoor.icon

そして何故か技術をオープンにすることに積極的

ComfyUIやLoRAに関する情報が中国のコミュニティでかなり広がっている

実際アニメ系のモデルはほぼ中国から

HeyGenはじめ、ディープフェイク動画の作成が簡単になりつつある

LLM

GPTsが作れるようになったぐらい？

ドキュメントを投げられるようになった

コンテキスト長の長いものが増えてきた

日本語LLM

定量評価が難しすぎていい方向に調整できてるのかわからない

ヘンなプロンプトは流行ってる？

OpenAIのお家騒動？で脱クラウド&ローカルLLMへの注目度が少しずつ上ってきた

VLM/マルチモーダル

わからないwogikaze.icon

画像入力がChatGPTとGeminiは対応している